Выпуклая оптимизация: от статистической правдоподобности к выпуклым программам

Статистическое выводение задаёт вопрос: «Учитывая эти данные, какие параметры наиболее вероятны?» Эта слайд-презентация связывает этот вопрос с выпуклой оптимизацией. Мы преобразуем вероятностное понятие правдоподобия в структурированную программу, показывая, что при условии лог-вогнутости поиск наилучшей оценки эквивалентен решению задачи выпуклой оптимизации.

Фреймворк правдоподобия

Функция правдоподобия — это функция вероятностного распределения $p_x(y)$, рассматриваемая как функция параметра $x$ для фиксированной наблюдаемой выборки $y$. Чтобы оценить $x$, мы используем оценку максимального правдоподобия (ML): выбор значения, которое делает наблюдаемые данные наиболее вероятными.

$$\hat{x}_{ml} = \text{argmax}_x p_x(y) = \text{argmax}_x l(x)$$

Для повышения вычислительной эффективности мы используем логарифмическую функцию правдоподобия, $l(x) = \log p_x(y)$. Поскольку логарифм — монотонно возрастающая функция, он сохраняет положение максимума, превращая произведения (из независимых наблюдений) в простые суммы.

Программа оптимизации МПО (7.1)

Мы формализуем оценку как математическую программу:

$$\begin{array}{ll} \text{максимизировать} & l(x) = \log p_x(y) \\ \text{при условии} & x \in C \end{array}$$ (7.1)

Эта программа является задачей выпуклой оптимизации если:

Логарифмическая функция правдоподобия $l$ является вогнутой для каждого значения $y$.
Допустимое множество $C$ (информация до эксперимента) описывается линейными равенствами и выпуклыми неравенствами.

Интеграция ограничений и априорных знаний

Оценка максимального правдоподобия требует переопределения $p_x(y)$ как нуля при $x \notin C$, чтобы явно учесть физические или априорные ограничения. В пространстве оптимизации это означает, что функция логарифмического правдоподобия принимает значение $-\infty$ для параметров $x$, нарушающих эти ограничения, фактически создавая непреодолимый барьер для оптимизатора.

🎯 Основной принцип

Переход от «оценки максимального правдоподобия» к «выпуклой программе» зависит от вогнутости логарифма плотности. Если шум или распределение лог-вогнутое, статистическая оценка становится задачей глобальной оптимизации.

ВОПРОС 1

Почему логарифмическая функция правдоподобия $l(x)$ предпочтительнее функции правдоподобия $p_x(y)$ для оптимизации?

Она изменяет положение максимума на более устойчивую точку.

Это монотонно возрастающая функция, которая преобразует произведения в суммы.

Она гарантирует, что задача всегда линейная.

Она устраняет необходимость в ограничениях.

ВОПРОС 2

В каких условиях задача МПО (7.1) считается задачей выпуклой оптимизации?

Когда $p_x(y)$ — линейная функция от $x$.

Когда $l(x)$ — выпуклая функция, а $C$ — любое множество.

Когда $l(x)$ — вогнутая функция, а $C$ определяется линейными равенствами и выпуклыми неравенствами.

Только когда шум гауссовский.

ВОПРОС 3

Если параметр $x$ нарушает априорное ограничение ($x \notin C$), какое значение присваивается логарифму правдоподобия?

$+\infty$

$-\infty$

ВОПРОС 4

Верно или неверно: оценка максимального правдоподобия для лог-вогнутой плотности с выпуклыми ограничениями всегда имеет уникальный глобальный максимум, если он существует.

Верно

Неверно

ВОПРОС 5

Рассмотрим экспоненциальное распределение с параметром $\lambda$. Если известно, что $\lambda \ge 5$, но данные указывают на $\lambda = 2$, где будет находиться ограниченная оценка максимального правдоподобия?

При $\lambda = 2$

При $\lambda = 5$

Задача не имеет решения.

При $\lambda = 0$